当前使用广泛使用的对象检测数据集,例如Coco [23],Objects365 [32]和OpenImages V4 [19] [19],提供大量图像和类别,仍然具有有限的词汇。这些数据集的有限词汇限制了班级检测器的训练潜力,因为理想的检测器应该能够识别培训集外的新类别。即使是LVIS [16](例如LVIS [16])的大型词汇检测数据集,就类别的数量和多样性而言,也无法完全代表现实世界的复杂性。V3DET为研究社区提供了一个大型的对象检测数据集,该数据集可以加速对更通用的视觉检测系统的探索。基线级联结构非常适合处理V3DET数据集的分层类别结构。使用常见的检测改进策略,我们将监督轨道I视为具有复杂标签的传统对象检测任务。通过改善特征金字塔网(FPN)结构,我们希望网络可以有效地学习更深入的语义信息。此外,我们通过调整损失函数来构成标签。
主要关键词
![arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第1页](/bimg/7/78826253e9a7b7bfda8674414a9084df27a6ce20.webp)
![arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第2页](/bimg/f/f7c40129d8d6b82429a3bf3934f60bf8d3cb10f2.webp)
![arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第3页](/bimg/e/e1246cd27d719d7549561a95dfdcc27864536233.webp)
![arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第4页](/bimg/3/3b25d421a54452d1b8d96237c9b7b07a371eb0c8.webp)
![arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第5页](/bimg/c/c3dc33dda7c03f56a5f03a07061ccbcfec504046.webp)
